Wprowadzenie

Cel badania

Celem niniejszego projektu jest zbadanie wielowymiarowych zależności między spożyciem alkoholu, towarzyszącym mu stylem życia a wynikami w nauce (GPA) oraz funkcjonowaniem poznawczym studentów uniwersyteckich. Problem ten jest istotny ze względu na powszechność kultury picia w środowisku akademickim i jej potencjalnie negatywny wpływ na karierę edukacyjną. Analiza opiera się na danych ankietowych obejmujących zmienne demograficzne, ekonomiczne (stypendia, zakwaterowanie), społeczne (relacje z rodzicami) oraz behawioralne (częstotliwość imprezowania, absencja na zajęciach). W toku prac dane poddano czyszczeniu oraz imputacji, aby zapewnić rzetelność wnioskowania statystycznego.

Pytania badawcze

W ramach analizy postawiono następujące pytania badawcze, mające na celu zgłębienie mechanizmów rządzących badanym zjawiskiem:

  1. Bezpośredni wpływ alkoholu na wyniki: Czy istnieje istotna statystycznie, ujemna korelacja między ilością spożywanego alkoholu a średnią ocen (GPA)?
  2. Rola statusu ekonomicznego: Czy wyższy dochód rozporządalny (allowance) stymuluje intensywniejsze życie towarzyskie, pośrednio wpływając na obniżenie wyników w nauce?
  3. Środowisko zamieszkania a kultura studencka: Czy rodzaj zakwaterowania (sektor prywatny/dom rodzinny vs. akademiki) różnicuje siłę związku między spożyciem alkoholu a liczbą opuszczonych zajęć?
  4. Psychospołeczne determinanty: Czy jakość relacji z rodzicami oraz ich aprobata dla spożywania alkoholu stanowią istotne predyktory ryzykownych zachowań studentów?
  5. Efekt kompensacji: Czy zwiększony nakład pracy własnej (dodatkowe godziny nauki w tygodniu) jest w stanie zniwelować negatywny wpływ “imprezowego stylu życia” na średnią ocen?
  6. W jakim stopniu “imprezowy styl życia” zwiększa ryzyko niezdania przedmiotów?
  7. Różnice międzypłciowe (Gender Gap): Czy płeć studenta różnicuje wzorce spożycia alkoholu oraz czy moderuje siłę związku między piciem a wynikami w nauce?

Czyszczenie danych

W tym etapie surowe dane ankietowe zostały poddane standaryzacji i transformacji, aby umożliwić ich dalszą analizę statystyczną. Wykonano następujące operacje:

  • Selekcja i nazewnictwo: Usunięto zbędne kolumny (np. znaczniki czasowe) oraz nadano zmiennym intuicyjne nazwy (np. sex, grade_12, drinks), zastępując długie pytania z kwestionariusza (Tabela 1).
  • Kodyfikacja zmiennych:
    • Zmienne binarne (np. płeć, stypendium) przekodowano na format 0-1.
    • Zmienne opisowe (np. przedziały dochodów, liczba drinków) zamieniono na skalę porządkową, co pozwoli na zachowanie hierarchii danych w modelach korelacji.
  • Logika dla pierwszego roku: Zidentyfikowano specyficzną grupę studentów pierwszego roku (“12th class”). Ich braki danych w kolumnie ocen z poprzedniego roku akademickiego (grade_last_y) nie są błędem, lecz wynikają ze struktury badania (brak historii studiowania). Zostało to uwzględnione w procesie czyszczenia.
  • Walidacja danych: Zostały również sprawdzone ograniczenia, które musiały obejmować zmienne i zostały pod tym kątem sprawdzone.
  • Duplikaty: Wśród obserwacji były również duplikaty, jednak przez bardzo małą ich ilość (2) założyliśmy, że istnieje możliwość na zaistnienie takiej sytuacji, więc nie zostały one usunięte.
Tabela 1: Słownik zmiennych
Nazwa zmiennej Opis zmiennej
sex Płeć respondenta
grade_12 Średnia ocen z 12 klasy (GPA)
last_year Rok studiów w roku 2023
faculty Kierunek studiów
grade_last_y Średnia ocen za rok akademicki 2023
accomodation Status zakwaterowania (prywatne vs publiczne)
allowance Miesięczny budżet
scholarship Czy student posiadał stypendium
studying Dodatkowe godziny nauki tygodniowo
partying Częstotliwość wychodzenia na imprezy
drinks Liczba drinków spożywanych jednej nocy
classes_missed Liczba zajęć opuszczonych przez alkohol
modules_failed Liczba niezdanych przedmiotów
relationship Czy student jest w związku
parents_alcohol_approval Czy rodzice akceptują spożywanie alkoholu
relationship_w_parents Relacja z rodzicami

Analiza i diagnoza braków danych

Przed przystąpieniem do imputacji (uzupełniania) danych, przeprowadzono wizualną inspekcję brakujących wartości przy użyciu pakietów naniar i ggmice. Pozwoliło to na podjęcie kluczowych decyzji:

  1. Eliminacja rekordów: Usunięto obserwacje posiadające braki w kluczowych zmiennych strukturalnych: sex (płeć), faculty (wydział) oraz last_year (rok studiów). Zmienne te definiują profil studenta i są trudne do wiarygodnego, sztucznego odtworzenia.
  2. Identyfikacja mechanizmu braków: Potwierdzono, że część braków ma charakter strukturalny (wspomniani studenci pierwszego roku), co wyklucza prostą imputację średnią dla całej populacji.

Imputacja danych

Pozostałe braki danych (w zmiennych takich jak allowance, scholarship czy grades) uzupełniono, wykorzystując algorytm k-Nearest Neighbors (kNN). Metoda ta polega na znalezieniu dla każdej niepełnej obserwacji grupy najbardziej podobnych do niej studentów (“sąsiadów”) i uzupełnieniu braku na podstawie ich danych.

Dobór parametru \(k=5\):

Zdecydowano się na ustawienie parametru liczby sąsiadów na \(k=5\). Jest to optymalny kompromis:

  • Wartość ta jest wystarczająco duża, aby zminimalizować wpływ pojedynczych wartości odstających (szumu w danych).
  • Jednocześnie jest wystarczająco mała, aby zachować lokalną strukturę danych i nie doprowadzić do nadmiernego “wygładzenia” (uśrednienia) specyficznych cech studentów.

Dla zmiennej grade_last_y zastosowano podejście hybrydowe: imputacja została przeprowadzona, a następnie skorygowana logicznie dla studentów pierwszego roku, aby nie przypisywać im sztucznych ocen z okresu, gdy nie studiowali.

Weryfikacja jakości imputacji

W celu potwierdzenia poprawności działania algorytmu wygenerowano wykresy typu stripplot dla zmiennych allowance oraz accommodation. Zdecydowaliśmy się akurat na te zmienne ze względu na to, że tylko one mają braki na poziomie co najmniej 5% (oprócz braków strukturalnych w grade_12).

Wybrano zestawienie tych kategorii ze zmienną grade_12, aby sprawdzić, czy wartości uzupełnione (zaznaczone na czerwono) naturalnie wpisują się w rozkład danych oryginalnych. Brak wyraźnych skupisk punktów imputowanych poza chmurą danych zaobserwowanych potwierdza, że proces uzupełniania nie wprowadził zniekształceń do struktury zbioru.